Este documento explora as características dos vinhos vermelhos.

Tabela com as informações dos vinhos vermelhos

summary(rwq)
##        X          fixed.acidity   volatile.acidity  citric.acid   
##  Min.   :   1.0   Min.   : 4.60   Min.   :0.1200   Min.   :0.000  
##  1st Qu.: 400.5   1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090  
##  Median : 800.0   Median : 7.90   Median :0.5200   Median :0.260  
##  Mean   : 800.0   Mean   : 8.32   Mean   :0.5278   Mean   :0.271  
##  3rd Qu.:1199.5   3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420  
##  Max.   :1599.0   Max.   :15.90   Max.   :1.5800   Max.   :1.000  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.900   Min.   :0.01200   Min.   : 1.00      
##  1st Qu.: 1.900   1st Qu.:0.07000   1st Qu.: 7.00      
##  Median : 2.200   Median :0.07900   Median :14.00      
##  Mean   : 2.539   Mean   :0.08747   Mean   :15.87      
##  3rd Qu.: 2.600   3rd Qu.:0.09000   3rd Qu.:21.00      
##  Max.   :15.500   Max.   :0.61100   Max.   :72.00      
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  6.00       Min.   :0.9901   Min.   :2.740   Min.   :0.3300  
##  1st Qu.: 22.00       1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500  
##  Median : 38.00       Median :0.9968   Median :3.310   Median :0.6200  
##  Mean   : 46.47       Mean   :0.9967   Mean   :3.311   Mean   :0.6581  
##  3rd Qu.: 62.00       3rd Qu.:0.9978   3rd Qu.:3.400   3rd Qu.:0.7300  
##  Max.   :289.00       Max.   :1.0037   Max.   :4.010   Max.   :2.0000  
##     alcohol         quality     
##  Min.   : 8.40   Min.   :3.000  
##  1st Qu.: 9.50   1st Qu.:5.000  
##  Median :10.20   Median :6.000  
##  Mean   :10.42   Mean   :5.636  
##  3rd Qu.:11.10   3rd Qu.:6.000  
##  Max.   :14.90   Max.   :8.000

Qualidade do vinho da nossa amostra.

qplot(x=quality, data=rwq) +
  xlab("Qualidade") + ylab("Quantidade") +
  ggtitle("Distribuição dos vinhos por qualidade")

A maioria das amostras tiveram notas entre 5 e 6, o que classificamos como mediano ou normal.

Criando classificações para os grupos de vinhos conforme sua nota de qualidade.

rwq$quality_group <- cut(rwq$quality, breaks = c(0, 4, 7, 10),
                     labels = c('baixa', 'normal', 'alta') )


summary(rwq$quality_group)
##  baixa normal   alta 
##     63   1518     18
rwq.baixo_normal <- subset(rwq, quality_group %in% c('baixa', 'normal'))
rwq.alto_baixo <- subset(rwq, quality_group %in% c('baixa', 'alta'))

rwq.alto <- subset(rwq, quality_group ='alta')

Verificando as caracteristicas dos vinhos com notas considerados de qualidade baixa e normal.

Quanto a acidez

g1 <- qplot(x = fixed.acidity,
      data = rwq.baixo_normal) +
  scale_x_continuous(limits = c(4, 16),breaks = seq(4, 16, 0.5)) +
  ggtitle(parse(text= "Acidez *(g/dm^3)")) 
  

g2 <- qplot(x = log10(fixed.acidity),
      data = rwq.baixo_normal) +
      ggtitle(parse(text= "Acidez(log10) *(g/dm^3)")) 

grid.arrange(g1,g2)

O gráfico apresenta um distribuição normal com uma grande cauda a direita, neste caso, foi utilizado uma transformação log10 para melhorar a visualização. Nota-se que temos uma concentração de acideze entre 0.8 e 1.

Quanto a acidez volátil. Neste caso, quanto menor a acidez melhor, pois quanto maior for o % de acidez volátil maior o sabor de vinagre.

qplot(x=log10(volatile.acidity)+1,
      data = rwq.baixo_normal,
      xlab=expression(paste('Acidez volátil (g/',dm^3,')',sep=''))) +
      scale_x_continuous(limits = c(0, 1.5), breaks = seq(0, 1.5, 0.1)) +
      ggtitle("Acidez volátil") 

O gráfico de acidez volátil apresenta uma distribuição normal.

Quanto a acido citrico. Nos vinhos tintos pode desaparecer devido à ação de bactérias láticas.

qplot(x=citric.acid,
      data = rwq.baixo_normal,
      xlab=expression(paste('Acido cítrico (g/',dm^3,')',sep=''))) +
     geom_histogram(binwidth = 0.005) +
    ggtitle("Acido citrico.") 

Nste gráfico podemos ver uma distribuição irregular dos dados, diferente dos demais gráfico, que apresentam uma distribuição normal, sendo a maioria deles com cauda a direita.

Quanto a açucar residual.

g1 <-qplot(x=residual.sugar,
      data = rwq.baixo_normal,
      xlab=expression(paste('Açúcar (g/',dm^3,')',sep=''))) +
  geom_histogram(binwidth = 0.05) + 
  ggtitle("Açúcar") 

g2 <- qplot(x = log10(residual.sugar),
      data = rwq.baixo_normal,
      xlab=expression(paste('Açúcar log10 (g/',dm^3,')',sep=''))) +
  geom_histogram(binwidth = 0.05) + 
  ggtitle("Açúcar usando log10") 

grid.arrange(g1,g2)

O gráfico apresenta um distribuição normal com uma grande cauda a direita, neste caso, foi utilizado uma transformação log10 para melhorar a visualização. Nota-se que temos uma concentração de açúcar residual entre 1 e 4.

Quanto a cloretos.

g1 <- qplot(x=chlorides,
      data = rwq.baixo_normal,
      xlab=expression(paste('Cloretos (g/',dm^3,')',sep=''))) +
    scale_x_continuous(limits = c(0, 0.5),breaks = seq(0, 0.5, 0.02)) +
    ggtitle("Cloretos") 

g2 <- qplot(x=log10(chlorides) +1,
      data = rwq.baixo_normal,
      xlab=expression(paste('Cloretos log10 (g/',dm^3,')',sep=''))) +
    ggtitle("Cloretos") 

grid.arrange(g1,g2)

Este gráfico apresnta um distribuição normal.

Quanto a Dióxido sulfurico livre

g1 <- qplot(x=free.sulfur.dioxide,
      data = rwq.baixo_normal,
      xlab=expression(paste('Dióxido sulfurico livre (mg/',dm^3,')',sep=''))) +
    scale_x_continuous(limits = c(1, 72),breaks = seq(1, 72, 2)) + 
    ggtitle("Dióxido sulfurico livre") 


g2 <- qplot(x = log10(free.sulfur.dioxide),
      data = rwq.baixo_normal,
  xlab=expression(paste('Dióxido sulfurico livre log10 (mg/',dm^3,')',sep=''))) +
  geom_histogram(binwidth = 0.05) + 
  ggtitle("Dióxido sulfurico livre usando log10") 


grid.arrange(g1,g2)

Este gráfico apresenta uma distribuição quase normal com um desvio a direita.

Quanto a cloretos totais.

g1 <- qplot(x=total.sulfur.dioxide,
      data = rwq.baixo_normal,
      xlab=expression(paste('cloretos totais (mg/',dm^3,')',sep=''))) +
    scale_x_continuous(limits = c(5, 155),breaks = seq(5, 155,5 )) +
    ggtitle("cloretos totais ") 


g2 <- qplot(x = log10(total.sulfur.dioxide),
      data = rwq.baixo_normal,
      xlab=expression(paste('cloretos totais log10 (mg/',dm^3,')',sep=''))) +
  geom_histogram(binwidth = 0.05) + 
  ggtitle("cloretos totais usando log10") 



g3 <- qplot(x = sqrt(total.sulfur.dioxide),
      data = rwq.baixo_normal,
      xlab=expression(paste('cloretos totais sqrt (mg/',dm^3,')',sep=''))) +
  geom_histogram(binwidth = 0.05) + 
  ggtitle("cloretos totais usando sqrt") 

grid.arrange(g1,g2,g3)

O gráfico apresenta um distribuição normal com uma grande cauda a direita, neste caso, foi utilizado uma transformação log10 para melhorar a visualização. Nota-se que temos uma concentração de cloretos totais entre 10 e 20.

Quanto a densidade.

qplot(x=density, 
      data = rwq.baixo_normal,
      xlab=expression(paste('densidade (g/',cm^3,')',sep=''))) +
    scale_x_continuous(limits = c(0.99,1),breaks = seq(0.99, 1, 0.005)) +
     ggtitle("Densidade") 

O gráfico de densidade mostra um distribuição normal com valores entre 0.990 e 1, sendo que maioria dos valores se encontram entre 0.996 e 0.998

Quanto ao PH

qplot(x=pH,
      data = rwq.baixo_normal) +
      scale_x_continuous(limits = c(2.5,4),breaks = seq(0, 5, 0.2)) +
     ggtitle("Ph") 

O gráfico de ph mostra um distribuição normal com valores entre 2.8 e 3.8. Sendo que 50% dos valores se encontram entre 3.2 e 3.4

Quanto ao sulfatos

Este gráfico mostra uma distribuição normal com os valores variando entre 0.4 e 0.8.

Quanto ao alcool.

g1 <- qplot(x=alcohol,
      data = rwq.baixo_normal,
       xlab=expression(paste('alcool (% por volume)',sep=''))) +
    scale_x_continuous(limits = c(8,15),breaks = seq(8,15, 0.5)) +
    ggtitle("Alcool") 

g2 <- qplot(x = log10(alcohol),
      data = rwq.baixo_normal,
      xlab=expression(paste('alcool log10 (% por volume)',sep=''))) +
  geom_histogram(binwidth = 0.05) +
  ggtitle("Alcool usando log10") 

grid.arrange(g1,g2)

O gráfico apresenta um distribuição normal com um viés a direita, neste caso, foi utilizado uma transformação log10 para melhorar a visualização. Nota-se que temos uma concentração de alcool entre 10 e 10.

A tabela com as informações dos vinhos a pontuação de qualidade considerada baixa e normal.

summary(rwq.baixo_normal)
##        X          fixed.acidity    volatile.acidity  citric.acid    
##  Min.   :   1.0   Min.   : 4.600   Min.   :0.120    Min.   :0.0000  
##  1st Qu.: 399.0   1st Qu.: 7.100   1st Qu.:0.390    1st Qu.:0.0900  
##  Median : 800.0   Median : 7.900   Median :0.520    Median :0.2600  
##  Mean   : 799.7   Mean   : 8.317   Mean   :0.529    Mean   :0.2696  
##  3rd Qu.:1199.0   3rd Qu.: 9.200   3rd Qu.:0.640    3rd Qu.:0.4200  
##  Max.   :1599.0   Max.   :15.900   Max.   :1.580    Max.   :1.0000  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.900   Min.   :0.01200   Min.   : 1.0       
##  1st Qu.: 1.900   1st Qu.:0.07000   1st Qu.: 7.0       
##  Median : 2.200   Median :0.07900   Median :14.0       
##  Mean   : 2.538   Mean   :0.08768   Mean   :15.9       
##  3rd Qu.: 2.600   3rd Qu.:0.09100   3rd Qu.:21.0       
##  Max.   :15.500   Max.   :0.61100   Max.   :72.0       
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  6.00       Min.   :0.9901   Min.   :2.740   Min.   :0.3300  
##  1st Qu.: 22.00       1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500  
##  Median : 38.00       Median :0.9968   Median :3.310   Median :0.6200  
##  Mean   : 46.62       Mean   :0.9968   Mean   :3.312   Mean   :0.6569  
##  3rd Qu.: 62.00       3rd Qu.:0.9979   3rd Qu.:3.400   3rd Qu.:0.7300  
##  Max.   :289.00       Max.   :1.0037   Max.   :4.010   Max.   :2.0000  
##     alcohol        quality      quality_group
##  Min.   : 8.4   Min.   :3.000   baixa :  63  
##  1st Qu.: 9.5   1st Qu.:5.000   normal:1518  
##  Median :10.1   Median :6.000   alta  :   0  
##  Mean   :10.4   Mean   :5.609                
##  3rd Qu.:11.0   3rd Qu.:6.000                
##  Max.   :14.9   Max.   :7.000

A tabela com as informações e características dos vinhos com a maior pontuação de qualidade.

Neste caso apenas 18 vinhos receberam a nota maior ou igual a 7. Como era esperado as informações diferem dos vinhos considerados baixos e normais.

rwq_quality <- subset(rwq,quality>=7)

summary(rwq_quality)
##        X          fixed.acidity    volatile.acidity  citric.acid    
##  Min.   :   8.0   Min.   : 4.900   Min.   :0.1200   Min.   :0.0000  
##  1st Qu.: 482.0   1st Qu.: 7.400   1st Qu.:0.3000   1st Qu.:0.3000  
##  Median : 939.0   Median : 8.700   Median :0.3700   Median :0.4000  
##  Mean   : 831.7   Mean   : 8.847   Mean   :0.4055   Mean   :0.3765  
##  3rd Qu.:1089.0   3rd Qu.:10.100   3rd Qu.:0.4900   3rd Qu.:0.4900  
##  Max.   :1585.0   Max.   :15.600   Max.   :0.9150   Max.   :0.7600  
##  residual.sugar    chlorides       free.sulfur.dioxide
##  Min.   :1.200   Min.   :0.01200   Min.   : 3.00      
##  1st Qu.:2.000   1st Qu.:0.06200   1st Qu.: 6.00      
##  Median :2.300   Median :0.07300   Median :11.00      
##  Mean   :2.709   Mean   :0.07591   Mean   :13.98      
##  3rd Qu.:2.700   3rd Qu.:0.08500   3rd Qu.:18.00      
##  Max.   :8.900   Max.   :0.35800   Max.   :54.00      
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  7.00       Min.   :0.9906   Min.   :2.880   Min.   :0.3900  
##  1st Qu.: 17.00       1st Qu.:0.9947   1st Qu.:3.200   1st Qu.:0.6500  
##  Median : 27.00       Median :0.9957   Median :3.270   Median :0.7400  
##  Mean   : 34.89       Mean   :0.9960   Mean   :3.289   Mean   :0.7435  
##  3rd Qu.: 43.00       3rd Qu.:0.9973   3rd Qu.:3.380   3rd Qu.:0.8200  
##  Max.   :289.00       Max.   :1.0032   Max.   :3.780   Max.   :1.3600  
##     alcohol         quality      quality_group
##  Min.   : 9.20   Min.   :7.000   baixa :  0   
##  1st Qu.:10.80   1st Qu.:7.000   normal:199   
##  Median :11.60   Median :7.000   alta  : 18   
##  Mean   :11.52   Mean   :7.083                
##  3rd Qu.:12.20   3rd Qu.:7.000                
##  Max.   :14.00   Max.   :8.000

Análise de uma variável

Qual a estrutura da amostra de dados.

Nesta amostra, nos temos os dados de 1599 observações de vinhos com 12 campos de características. Essas características combinadas podem fazer um vinho ser classificado em uma escala de 0 a 10, onde 0 é um vinho ruim e 10 um ótimo vinho.

Qual é (são) a (s) característica (s) principal (is) de interesse em seu conjunto de dados ?

Qualidade.Neste caso estamos procurando identificar quais as características principais de um vinho considerado de boa qualidade. Escolhemos comparar os vinhos considerados de qualidade baixa e normal ( entre 3 a 7), com os vinhos considerados de qualidade alta (acima de 7)

Quais outros recursos do conjunto de dados você acha que ajudará a apoiar sua investigação em suas características de interesse?

Dióxido livres e totais. Acredito que tenham um relação direta com a qualidade do vinho,porém, só podem ser confirmado a medida que a exploração avança.

Você criou novas variáveis das já existentes no conjunto de dados? Foi criada um nova variável chamada quality_group, onde foi classificado os vinhos conforme as faixas: 0 a 4 -> baixa 4 a 7 -> normal
7 a 10 -> alta

Análise de duas variável

Para uma primeira análise verifica-se as correlações entre as váriaveis, criando um gráfico com as correlações para uma melhor visualização.

rwq_corr <- subset( rwq, select = -c(quality_group) )

W<-cor(rwq_corr)
corrplot(W, method = 'number' , title='Gráfico de correlação entre os vinhos tintos', mar=c(0,0,1,0)) 

Com a visualização, observa-se que a temos uma correlação positiva com os acido cítrico,sulfatos e alcool além uma forte correlação negativa com acidez volátil e densidade. Os valors positivos estão variando de 0.23 até 0.48, o valor da correlação negativa foi de -0.39.

Vamos análisar separadamente cada um deste elementos para descobrir como eles estão relacionados a qualidade dos vinhos.

Acido cítrico x Qualidade

ggplot(aes(x = factor(quality), y = citric.acid),
       data = rwq) +
       xlab("Qualidade") +
       ylab(expression(paste('Acido cítrico (g/',dm^3,')',sep=''))) +
  geom_boxplot()  + ggtitle("Qualidade x acido crítico") 

by(rwq$citric.acid, rwq$quality, summary)
## rwq$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0050  0.0350  0.1710  0.3275  0.6600 
## -------------------------------------------------------- 
## rwq$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0300  0.0900  0.1742  0.2700  1.0000 
## -------------------------------------------------------- 
## rwq$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0900  0.2300  0.2437  0.3600  0.7900 
## -------------------------------------------------------- 
## rwq$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0900  0.2600  0.2738  0.4300  0.7800 
## -------------------------------------------------------- 
## rwq$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.3050  0.4000  0.3752  0.4900  0.7600 
## -------------------------------------------------------- 
## rwq$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0300  0.3025  0.4200  0.3911  0.5300  0.7200

Neste gráfico podemos ver que os vinhos que apresentam as melhores notas possuem uma maior quantidade de acido cítrico.

Sulfatos x Qualidade

ggplot(aes(x = factor(quality), y = sulphates), data = rwq) +
   geom_boxplot() +
   xlab("Qualidade") +
   ylab(expression(paste('Sulfatos (mg/',dm^3,')',sep=''))) +
   ggtitle("Qualidade x Sulfatos") 

by(rwq$sulphates, rwq$quality, summary)
## rwq$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4000  0.5125  0.5450  0.5700  0.6150  0.8600 
## -------------------------------------------------------- 
## rwq$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3300  0.4900  0.5600  0.5964  0.6000  2.0000 
## -------------------------------------------------------- 
## rwq$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.370   0.530   0.580   0.621   0.660   1.980 
## -------------------------------------------------------- 
## rwq$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4000  0.5800  0.6400  0.6753  0.7500  1.9500 
## -------------------------------------------------------- 
## rwq$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3900  0.6500  0.7400  0.7413  0.8300  1.3600 
## -------------------------------------------------------- 
## rwq$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.6300  0.6900  0.7400  0.7678  0.8200  1.1000

Neste gráfico podemos ver que os vinhos que apresentam as melhores notas possuem uma maior quantidade de sulfatos.

Acidez volátil x Qualidade

ggplot(aes(x = factor(quality), y = volatile.acidity), data = rwq) +
   geom_boxplot() +
  xlab("Qualidade") +
  ylab(expression(paste('Acidez Volátil (g/',dm^3,')',sep=''))) +
  ggtitle("Qualidade x Acidez Volátil") 

by(rwq$volatile.acidity, rwq$quality, summary)
## rwq$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4400  0.6475  0.8450  0.8845  1.0100  1.5800 
## -------------------------------------------------------- 
## rwq$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.230   0.530   0.670   0.694   0.870   1.130 
## -------------------------------------------------------- 
## rwq$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.180   0.460   0.580   0.577   0.670   1.330 
## -------------------------------------------------------- 
## rwq$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1600  0.3800  0.4900  0.4975  0.6000  1.0400 
## -------------------------------------------------------- 
## rwq$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1200  0.3000  0.3700  0.4039  0.4850  0.9150 
## -------------------------------------------------------- 
## rwq$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2600  0.3350  0.3700  0.4233  0.4725  0.8500

Neste caso quanto menor a acidez volátil, melhor será o vinho, corroborando com a correlação negativa previamente apresentada.

Alcool x Qualidade

 ggplot(aes(x = factor(quality), y = alcohol), data = rwq) +
   geom_boxplot() +
   xlab("Qualidade") +
  ylab(expression(paste('Alcool (% por volume)',sep=''))) +
  ggtitle("Qualidade x Alcool") 

by(rwq$alcohol, rwq$quality, summary)
## rwq$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   8.400   9.725   9.925   9.955  10.580  11.000 
## -------------------------------------------------------- 
## rwq$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.00    9.60   10.00   10.27   11.00   13.10 
## -------------------------------------------------------- 
## rwq$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     8.5     9.4     9.7     9.9    10.2    14.9 
## -------------------------------------------------------- 
## rwq$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.80   10.50   10.63   11.30   14.00 
## -------------------------------------------------------- 
## rwq$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.20   10.80   11.50   11.47   12.10   14.00 
## -------------------------------------------------------- 
## rwq$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.80   11.32   12.15   12.09   12.88   14.00

Neste caso, podemos observar com maior clareza, a maior correlação que observamos (0.48), ou seja, quanto maior a concentração de alcool, melhor a qualidade do vinho.

Densidade x Qualidade

ggplot(aes(x = factor(quality), y = density), data = rwq) +
   geom_boxplot() +
   xlab("Qualidade") +
   ylab(expression(paste('densidade (g/',cm^3,')',sep=''))) +
   ggtitle("Qualidade x Densidade") 

by(rwq$density, rwq$quality, summary)
## rwq$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9947  0.9962  0.9976  0.9975  0.9988  1.0010 
## -------------------------------------------------------- 
## rwq$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9934  0.9956  0.9965  0.9965  0.9974  1.0010 
## -------------------------------------------------------- 
## rwq$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9926  0.9962  0.9970  0.9971  0.9979  1.0030 
## -------------------------------------------------------- 
## rwq$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9901  0.9954  0.9966  0.9966  0.9979  1.0040 
## -------------------------------------------------------- 
## rwq$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9906  0.9948  0.9958  0.9961  0.9974  1.0030 
## -------------------------------------------------------- 
## rwq$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9908  0.9942  0.9949  0.9952  0.9972  0.9988

Assim como a acidez volátil, a densidade também apresentou correlação negativa, o que pode ser obsevado no gráfico, onde temos os menores valores para densidade no vinhos de melhor qualidade.

Densidade x Alcool

ggplot(aes(x = alcohol, y = density), data = rwq) +
  geom_point() +
  xlab("Alcool(% por volume)") +
  ylab(expression(paste('densidade (g/',cm^3,')',sep=''))) +
  ggtitle("Densidade x Alcool") +
  geom_smooth(method = 'lm')

Uma das correlações que se destacam , é a de densidade e alcool. Neste caso podemos observar que quanto maior o teor de alcool, menos denso é o vinho.

Análise de duas variável

Fale sobre alguns relacionamentos que você observou nesta parte da investigação. Como as características ##de interesse variam com as outras carcterísticas no conjuto de dados?

Estamos buscando saber como as características da amostras se comportam em relaçõa a qualidade do vinho. Neste caso, as que mais de destacaram foram as correlações positivas com do acido cítrico,sulfatos e alcool além uma forte correlação negativa com acidez volátil e densidade. Os gráficos mostram que o alcool é um dos grandes fatores que levam o vinho a ser de qualidade ou não.

Você observou alguma relacão interessante entre as carcterísticas não principais?

Uma das correlações que me chamou a atenção foi entre alcool e densidade. Neste caso, podemos ver pelo gráfico que os vinhos mais densos, possuem um teor alcolico menor. Ainda não é possível determinar com certeza, mas com o avançar dos estudos podemos conferir, se os melhores vinhos são aqueles com a menor densidade e o maior teor alcolico.

Qual a maior correlação observada?

As maiores foram entre: ph x acidez fixo correlação negativa no valor de 0.68 densidade x acidez fixa correlação positiva no valor de 0.67 acido cítrico x acidez fixa correlação positiva no valor de 0.67

Dados Multivariados

Baseados nas informações retiradas da tabela de correlação vamos agora analisar os dados de densidade e açucar baseado na qualidade.

g1 <- ggplot(data=rwq,
       aes(x=density, y = residual.sugar, color = factor(quality_group))) +
       geom_point() +
       xlab(expression(paste('densidade (g/',cm^3,')',sep=''))) +
       ylab(expression(paste('açúcar (g/',dm^3,')',sep=''))) +
       ggtitle("Qualidade do vinho por Açucar x Densidade")



g2 <- ggplot(data=rwq.alto_baixo,
       aes(x=density, y = residual.sugar, color = factor(quality_group))) +
       geom_point()  + geom_smooth() +
       xlab(expression(paste('densidade (g/',cm^3,')',sep=''))) +
       ylab(expression(paste('açúcar (g/',dm^3,')',sep=''))) +
       ggtitle("Qualidade do vinho por Açúcar x Densidade")

  grid.arrange(g1,g2)

O primeiro gráfico mostra todos os agrupamentos utilizados, ou seja, os vinhos de baixa , normal e alta qualidade.

No segundo gráfico, apenas utilizamos os vinhos de baixa e alta qualidade, para podemos destacar a diferença entre eles.

Podemos notar um padrão de agrupamento, onde os vinhos de boa qualidade possuem baixa densidade além de baixo nível de açúcar.

Agora iremos analisar a qualidade do vinho baseado no teor de alcool e sua densidade.

g1 <- ggplot(data=rwq, aes(x=alcohol, y = density,
                           color = factor(quality_group))) +
  geom_point() + 
  geom_smooth(method = loess, fullrange = TRUE, alpha = 0.1, size = 1.5 ) +
  xlab(expression(paste('Alcool (% por volume)',sep=''))) +
  ylab(expression(paste('densidade (g/',cm^3,')',sep=''))) +
  ggtitle("Qualidade do vinho por densidade x alcool") 


g2 <- ggplot(data=rwq.alto_baixo,
             aes(x=alcohol, y = density,color = factor(quality_group))) +
  geom_point() + 
  geom_smooth(method = loess, fullrange = TRUE, alpha = 0.1, size = 1.5 ) +
  xlab(expression(paste('Alcool (% por volume)',sep=''))) +
  ylab(expression(paste('densidade (g/',cm^3,')',sep=''))) +
  ggtitle("Qualidade do vinho por densidade x alcool") 

  grid.arrange(g1,g2)

Neste gráfico podemos notar um padrão onde baixo teor alcólico combinado com alta densidade, produzem vinhos de baixa qualidade, ao contrário dos vinhos de alta qualidade que possuem um teor alcolico mais elevado e uma densidade baixa como vimos previamente.

Agora analisaremos quanto a acidez volátil

g1 <- ggplot(data=rwq, aes(x=alcohol, y = volatile.acidity,
                           color = factor(quality_group))) +
  geom_point() + 
  geom_smooth(method = loess, fullrange = TRUE, alpha = 0.1, size = 1.5 ) +
  xlab(expression(paste('Alcool (% por volume)',sep=''))) +
  ylab(expression(paste('Acidez Volátil (g/',dm^3,')',sep=''))) +
  ggtitle("Qualidade do vinho por acidez volátil x alcool") 


g2 <- ggplot(data=rwq.alto_baixo, aes(x=alcohol, y = volatile.acidity,
                                      color = factor(quality_group))) +
  geom_point() + 
  geom_smooth(method = loess, fullrange = TRUE, alpha = 0.1, size = 1.5 ) +
  xlab(expression(paste('Alcool (% por volume)',sep=''))) +
  ylab(expression(paste('Acidez Volátil (g/',dm^3,')',sep=''))) +
  ggtitle("Qualidade do vinho por acidez volátil x alcool") 

  grid.arrange(g1,g2)

Uma das características marcantes dos vinhos de boa qualidade estão mostradas neste gráfico. Os vinhos de boa qualidade possume um alto teor alcolico ( maior que 10%) e baixa acidez volátil, enquanto os vinhos de baixa qualidade possuem uma acidez volátil alta e teor alcolico baixo.

Dados Multivariados

Fale sobre alguns dos relacionamentos que você observou nesta parte da investigação. Haviam características que se fortaleceram em termos de observação das suas características de interesse?

Os relacionamento que podemos citar, e que já haviíamos demonstrado que poderiam estar muito ligados, seria o relativo a densidade, açúcar e alcool. Podemos comprovar que quanto maior o teor alcólico e menor será a densidade do vinho, ocasionando vinhos de alta qualidade, somando-se a isso a quantidade de açúcar, ou seja, nos vinho de alta qualidade forem encontrados os menores níveis de açúcar.

Havia alguma interação interessante ou surpreendente entre as características?

Como uma observação pessoal, fiquei supreso ao saber o que é a acidez volátil, que é que causa o aroma de vinagre nos vinhos, quando em doses elevadas. Neste caso faz sentido, que os vinhos considerados de alta qualidade tenham a acidez volátil em baixa quantidade, em relação a maiores concentrações nos vinhos de baixa qualidade.

Gráficos Finais

Este gráfico mostra como está a distribuição da nossa amostra. Neste caso temos muitos vinhos considerados normais, ou seja aquelas que estão na faixa de 5 a 7, e muito poucos vinhos cosiderados alto, ou seja na faixa de 8.

Este gráfico mostra a correlação entre todas as características da nossa amostra. Ficam mais evidentes as correlações que exploramos para descobrir as carcaterísticas que um bom vinho tem que ter, tais como acidez volátil que apresentou uma correlação negativa de 0.39 em relaçõa a qualidade, o que foi comprovado nos gráficos demonstrados, pois essa acidez quanto menor mlehor, pois em altas concentrações, produz um vinho com sabor de vinagre.

A densidade apresentou correlação negativa de 0.17, pois os vinhos com qualidade alta apresentaram as menores densidades.

O açúcar é um fator importante, conforme apresentado, pois quanto menor sua concentração mais alta a qualidade do vinho.

O alcool apresentou o maior fator de correlação, 0.48, sendo um fator muito importante para a alta qualidade dos vinhos, pois quanto maior o teor alcólico mais alta a qualidade do vinho.

##     density       residual.sugar   volatile.acidity    alcohol     
##  Min.   :0.9901   Min.   : 0.900   Min.   :0.1200   Min.   : 8.40  
##  1st Qu.:0.9956   1st Qu.: 1.900   1st Qu.:0.3900   1st Qu.: 9.50  
##  Median :0.9968   Median : 2.200   Median :0.5200   Median :10.20  
##  Mean   :0.9967   Mean   : 2.539   Mean   :0.5278   Mean   :10.42  
##  3rd Qu.:0.9978   3rd Qu.: 2.600   3rd Qu.:0.6400   3rd Qu.:11.10  
##  Max.   :1.0037   Max.   :15.500   Max.   :1.5800   Max.   :14.90

Estes gráficos demonstram as diferenças e as principais características que um vinho de alta qualidade deve possuir, e que os diferem dos vinhos de baixa qualiade. Neste exemplo podemos ver que os vinhos considerados de alta qualidade devem ter baixa densidade ,acidez volátil e açúcares e um alto teor alcoolico, a tabela anexa demonstra os as médias dos vinhos considerados de alta qualiadade.

Reflexão

As informações da base de dados continham 1599 observações a respeito de diversos vinhos, suas propriedades químicas e foram avalidades relativo a sua qualidade. Para analisar a base de dados e descobrir quais os fatores que levam um vinho a ser considerado de boa qualidade, foi feito um levantamento de cada propriedade em separado dos vinhos considerados de boa, média e baixa qualidade.

Após esse levantamento, foi feito um investigação baseado nas correlações entre as propriedades dos vinhos, onde se investigou aquelas correlações que apresentavam os indices mais positivos e negativos, com isso sendo possível identificar padrões de comportamento entre os elementos químicos, para descobrir, quais seriam os mais relevantes em um vinho considerado de boa qualidade.

Foram descobertas 4 variáveis importantes para que o vinho fosse considerado de boa qualidade, sendo elas, Acidez volátil, densidade, alcool e açucar.

Os vinhos considerados de boa qualidade apresentam um baixo nível de cloretos e de açucar , um nível de densidade abaixo de 0.997 e alto teor alcolico (sempre maior que 10%). Uma das dificulades encontradas foi explorar um base de dados onde não se tem nenhum tipo de conhecimento sobre ela. É sempre muito complexo fazer uma análise exploratória, porém quando se tem o conhecimento sobre o assunto, é possível fazer explorações com maior grau de certeza e confiança, o que não acontece em bases totalmente desconhecidas. Neste caso se faz necessário uma pesquisa prévia para entender o assunto para que possomas fazer as perguntas certas, e mais importante, para obtermos respostas coerentes e tenhamos o discernimento para entendê-las, interpretá-las e retirar as informações certas.

Um estudo que pode ser feito com essa base de dados que seria interessante, seria treinar uma máquina de aprendizado com bases nas informações que possuímos hoje, para classificar a qualiade dos vinhos conforme suas características.

Recursos: www.wikipedia.com http://www.winelab.com.br/